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深度 学 习 概 述 


常 虹 山 世 光 


摘要 深度 学 习 是 机 器 学 习 领 域 的 一 个 新 的 研究 方向 , 其 核心 思想 在 于 模拟 人 脑 的 层级 抽象 结构 ,通过 无 监 
督 的 方式 从 大 规模 数据 《例如 图 像 、 声 音 和 文本 ) 中 学 习 特 征 。 近 年 来 ， 深 度 学 习 在 计算 机 视觉 、 语 音 识 
别 等 研究 领域 取得 的 巨大 成 功 使 得 研究 者 们 对 其 寄予 更 多 的 关注 。 本 文 从 深度 学 习 的 概念 、 发 展 历程 、 模 
型 、 训 练 方法 以 及 应 用 等 几 个 方面 对 其 进行 概述 ， 并 对 深度 学 习 的 未 来 发 展 做 出 展望。 

关键 词 深度 学 习 ， 神 经 网 络 ， 无 监督 学 习 ， 深 度 置信 网 络 ， 自 动 编码 器 
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《 麻 省 理工 学 院 技术 评论 (Technology Review)? 将 深度 学 习 (Deep Learning) 列 为 2013 
FE 10 大 技术 突破 之 一 《纽约 时 报 》 的 头 版 把 深度 学 习 称 为 一 种 革命 性 的 人 工 智能 新 技术 。 
斯 坦 福 大 学 教授 、 著 名 的 机 器 学 习 专 家 吴 恩 达 (Andrew Ng) 认为 深度 学 习 可 以 让 机 器 更 好 
地 理解 人 的 意图 , 在 未 来 的 30 到 40 年 ,深度 学 习 技 术 有 望 帮助 我 们 创造 出 对 环境 有 洞察 和 
学 习 能 力 的 机 器 。 


那么 ， 何 谓 深度 学 习 ? 它 何以 如 此 强大 ? 


深度 学 习 是 相对 于 浅 层 学 习 而 言 的 。 传 统 的 机 器 学 习 方 法 ， 诸 如 支持 问 量 机 (support 
vector machines, SVMs) , boosting 等 ， 都 是 浅 层 学 习 方法 。 在 机 器 学 习 领 域 ， 所 谓 深度 指 在 
一 个 流向 图 (flow graph? 中 的 输入 到 输出 的 最 长 路 径 的 长 度 。 例 如 ，SVM 的 深度 为 2， 其 
中 第 一 层 对 应 其 核 输 出 或 者 特征 空间 , 第 二 层 对 应 其 线性 混合 的 分 类 输出 。 传 统 的 前 馈 神经 
网 络 的 深度 等 于 其 层次 的 数目 。 本 希 奥 (Bengio) 外 对 深度 学 习 的 研究 表明 ， 每 个 函数 都 有 
其 固定 的 最 小 深度 , 即 在 运算 次 序 上 尽 可 能 并 行 后 的 运行 次 数 。 函 数 的 深度 与 所 选择 的 运算 
有 很 大 的 关系 。 哈 斯 塔 德 (Hastad〉 等 人 由 证 明 ， 如 果 一 个 函数 可 以 由 k 层 网 络 模型 紧 臻 
地 表示 “〈 即 通过 较 少 的 计算 单元 )， 那 么 用 k-1 层 网 络 模型 表示 则 需要 指数 倍 的 计算 单元 。 
深层 结构 可 以 用 少 于 函数 变量 和 训练 数据 的 计算 单元 紧 致 地 表示 高 度 变 化 的 函数 , 这 是 大 多 
数 现 有 的 浅 层 机 器 学 习 方 法 不 可 比拟 的 。 所 以 ， 本 希 奥 外 等 人 认为 ， 增 加 网 络 结构 的 深度 从 
统计 学 的 效率 来 看 是 非常 重要 的 。 多 层 函 数 结构 可 以 增强 模型 的 表达 能 力 并 不 是 一 个 最 近 的 
发 现 , 较 早 的 工作 包括 引文 [29][10]。 近来, SERER (Utgoff) 和 斯 特 拉 库 齐 (Stracuzzi) P? 
预见 较 深 层 的 结构 在 认 知 方面 具有 更 好 的 前 景 ， 本 希 奥 和 勒 坤 (LeCun) Pup T zs 
构 的 表达 能 力 及 其 在 人 工 智 能 和 机 器 学 习 领 域 可 能 的 应 用 。 


除了 更 强大 的 函数 表达 能 力 和 更 好 的 泛 化 能 力 , 深度 学 习 的 结果 比较 自然 地 体现 了 底层 
特征 到 高 层 特征 的 演变 。 例 如 ， 深 度 模型 可 以 表示 “图 像 块 或 像素 点 一 边缘 一 部 件 一 物体 ” 
的 学 习 过 程 ， 而 这 个 过 程 与 生物 的 视觉 感知 系统 十 分 契合 。 同 时 ， 深 度 学 习 利用 大 数据 来 学 
习 特 征 ， 比 传统 的 人 工 构造 特征 的 方法 更 能 够 刻画 数据 的 丰富 内 在 信息 ,从 而 最 终 提升 分 类 
或 预测 的 准确 性 。 例 如 ， 深 度 学 习 系 统 能 够 通过 扫描 无 数 张 猫 的 图 片 “ 认 识 ” 猫 。 从 这 个 意 


义 上 说 ， 深 度 学 习 也 可 称 为 无 监督 特征 学 习 (unsupervised feature learning). 


深度 学 习 推动 图 像 识 别 、 语 音 识别 等 方面 的 研究 取得 了 突破 性 的 进展 ， 开启 了 “大 数据 
+ 复杂 模型 ”的 时 代 。 深 度 学 习 的 胜利 应 归功 于 : 深度 模型 结构 、 高 效 的 学 习 方法 、 大 数据 
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的 支持 以 及 日 新 月 异 的 计算 能 
2 ”深度 学 习 的 发 展 历 各 


HAT, 深度 模型 中 可 
第 一 次 兴起 ， 感 知 机 (Perceptron) 是 其 


的 性 能 。 但 是 ，BP 算法 需要 标注 数据 ， 


个 训练 样本 产生 一 维 描 


述 测试 样本 与 该 训练 


登 的 学 习 结 构 主 要 是 多 层 神经 网 络 。 二 十 世纪 
代表 性 的 模型 。 二 十 世纪 八 十 年 代 ， 第 二 代 字 
络 利用 反 向 传播 (back propagation, BP) 方法 学 习 网 络 参数 ， 在 一 定 程度 上 提高 了 神经 


六 十 年 代 神 经 网 络 
经 网 


网 络 


可 扩展 性 不 好 ， 容 易 陷入 局 部 极 小 。 之 后 ， 瓦 普 尼 
we CVapnikO 和 他 的 同事 们 提出 了 一 种 特殊 的 感知 机 模型 一 支持 向 量 机 。 在 这 个 模型 中 ， 每 


本 相似 程度 的 特征 ， 


模型 训练 的 结果 可 以 找到 


最 佳 的 特征 子 集 及 权重 。 支 持 向 量 机 等 统计 模型 在 理论 分 析 和 应 用 中 都 获得 了 巨大 的 成 功 ， 
其 优越 的 性 能 博得 了 研究 者 们 的 青睐 ， 神 经 网 络 的 发 展 进入 暂时 的 沉 披 。 


神经 网 络 中 最 为 常用 的 是 基于 梯度 


的 训练 方法 ， 它 在 


层 ) 时 具有 很 好 的 效果 。 但 本 希 奥 等 人 通过 实验 指出 ， 基 于 梯度 的 训练 方法 并 不 适 于 多 


经 网 络 。 梯度 信息 在 神经 网 络 的 较 高 层 ! 
后 ， 它 并 不 能 有 效 地 指导 较 低 


网 络 。 


层 的 参数 变化 到 比较 理 
陷入 到 局 部 最 小 值 中 。 在 很 多 问题 上 , 往往 较 多 层 的 神经 网 络 的 训练 结果 反而 差 于 较 少 


| 练 浅 层 神经 网 络 (1 或 2 个 隐藏 
层 神 
对 参数 的 更 新 具有 很 好 的 指引 性 。 但 经 过 向 后 传播 


想 的 区 整个 神经 网 络 很 容易 


AY 


域 , 这 使 得 


2006 年 以 来 , 3E (Hinton) 5$—4IEff 


究 者 成 功 地 改变 ] 


多 层 神 经 网 络 研 究 进 退 唯 谷 的 


局 面 1RIBY， 使 得 深度 学 习 迅 速 获得 了 广泛 的 关注 ， 迎 来 了 机 器 学习 的 新 浪潮 四。 这 种 


成 功 主要 源 于 无 监 ? 


名 的 逐 层 初始 化 (layer-wise pre-training )， 即 每 一 层 以 较 低 层 的 表示 作为 


输入 ,通过 无 监督 的 学 习 方式 训练 得 到 较 高 (隐藏 ) 层 的 更 抽象 的 表示 形式 。 无 监督 学 习 得 


到 的 深层 网 络 参数 


有 较 好 的 初始 值 , 然后 通过 自 顶 向 下 的 监督 学 习 调整 网 络 参数 和 中 间 层 


的 特征 ， 避 免 了 有 反 疝 传播 方法 的 梯度 扩散 ， 使 其 最 终 和 特定 的 识别 任务 相关 联 。 


深度 学 习 模型 在 网 络 结构 上 与 传统 的 神经 网 络 相似 ， 都 是 分 层 的 网 络 结构 。 但 是 ， 深 度 


c 


J 


3 ”深度 学 习 的 模型 与 训练 方法 
学 习 采 用 了 与 神经 网 络 很 不 同 的 训练 机 制 。 
3.1 主要 的 深度 学 习 模 型 
一 APRAN 

卷 积 神经 网 络 ( Convolutional 


neural networks, CNNs) [1 是 一 种 监 
督学 习 下 的 深度 模型 ， 最 早 受 视觉 系 
统 结构 串 的 启发 而 提出 。 其 基本 思想 
是 在 前 层 网 络 的 不 同位 置 共 享 特 征 映 
射 的 权重 ， 利 用 空间 相对 关系 减少 参 
数 数目 以 提高 训练 性 能 。 

卷 积 神经 网 络 以 其 局 部 权 值 
的 特殊 结构 和 对 平移 、 比 例 缩放 、 
和 斜 等 形变 的 高 度 不 变性 ， 在 语音 识 


r Ur NN 
| | 


输出 类 别 


卷 积 层 2 汇聚 层 2 N 


L a 


| 
卷 积 卷 积 最 大 汇聚 


最 大 汇聚 


— 
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特征 抽取 (x) 


图 2. 卷 积 神经 网 络 抽取 图 像 特征 
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rj 


B35 


FH ESL AH 


方面 显示 出 独特 的 优越 必 
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分 类 


很 好 地 吻 
[Al JE 


VE: 


合 , 特征 提取 和 模式 


Po at 


经 网 络 , 并 在 手写 字符 识别 | 
层 〈 不 包括 汇聚 层 ) BAISER 


题 上 取得 很 好 的 效果 ， 不 差 了 
人 JJ 证明， 这 个 现象 是 


很 好 的 频率 选择 性 与 平移 不 变性 。 


受 限 玻 耳 效 曼 机 (Restricted 
Boltzmann Machine, RBM) 如 图 
2 CAE) 所 示 ， 它 是 玻 尔 效 曼 机 的 


一 种 变型 ， 即 去 掉 原 始 的 玻 尔 获 


曼 机 中 可 见 绪 点 之 间 及 隐藏 结 点 

之 间 的 连接 。 受 限 玻 耳 兹 曼 机 是 

一 种 基于 能 量 的 模型 ， 其 中 二 进 ”图 3. 
制 神经 元 的 概率 值 可 以 通过 激励 

的 向 上 传播 和 向 下 传播 获得 ， 使 用 对 
了 模型 的 训练 效率 。 


受 限 玻 耳 效 曼 机 提供 了 无 监督 学 习 单 层 网 络 的 方法 , 如 果 把 隐藏 层 的 层 数 增加 ， 即 得 到 


可 以 同时 
上 ， 基 于 卷 积 神经 网 络 的 视觉 系统 


AA 


受 限 玻 尔 兹 曼 机 和 深度 置信 和 网络 


深度 玻 尔 兹 曼 机 ;如果 在 靠近 可 见 
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Eo 在 图 像 处 理 方面 , 输入 图 像 和 卷 积 网 络 的 拓扑 结构 能 
进行 , 使 神经 网 络 结构 变 得 
PA AA SUE 
上 取得 了 不 错 的 效果 。 辛 顿 等 研究 者 了 
申 经 网 络 赢得 了 ImageNet 竞赛 。 


Am Jaret 等 人 mM 发现， 即使 是 单 层 的 未 经 训练 的 卷 积 
六 ， 甚 至 偶尔 优 于 充分 训练 的 卷 积 神经 网 络 。 萨 克 瑟 (Saxe) 等 


ERE, M h 


W, 
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更 简单 , 适应 性 更 
等 人 PP 改进 了 卷 
上 用 一 个 包含 7 个 隐藏 


Cooooog h3 


强 。 


经 网络， 仍 可 在 识别 问 


卷 积 网 络 结构 内 在 的 特性 引起 的 ， 卷 积 网 络 即使 未 经 训练 仍 具 有 


RBM 


OQ0O0000ỌQ n2 


6000000 h1 | 有 向 图 
个 模型 


©O00000 x 


层 的 部 分 采用 贝 叶 


斯 网 络 〈 即 有 向 图 


层 中 节点 2 
网 络 (Deep Belief Networks, DBNs) H4301, 


识别 过 程 )。 


深度 置信 网 络 在 模型 训练 方面 充分 体 ] 
学 习 进 行 初始 化 ， 然 后 通过 自 顶 向 下 的 监 
aoe 
练 时 的 输入 由 
计 
EMO, i 


出 了 针对 深度 置信 网 络 的 逐 
高 层 受 限 玻 耳 效 曼 机 训 
络 已 经 有 许多 成 功 的 应 用 , 但 
问题 中 《例如 ， 处 理 实际 尺寸 的 
识 深度 置信 网 络 “"。 


自动 编码 器 


HE 
FE 


种 产生 式 模型 ,图 中 实 线 第 头 表 示 数 据 产 4 


另 一 类 深度 学 习 模型 以 自动 编码 器 


受 限 玻 尔 效 曼 机 《〈 左 ) 和 深度 置信 网 络 〈 右 ) 


模型 ， 这 是 


训练 方法 , BHI 


图 2 C) 所 示 。 
的 过 程 ， 虚 


AIV. 


线 第 


山 了 深度 学 习 的 思想 : 通过 自 底 向 ] 


pee Si] Cine tune) 模型 参数 。 
下 到 上 逐 层 单独 训练 受 限 玻 耳 效 曼 机 ， 


算 代 价 高 且 可 扩 


Ent 


itr e cn 


[ 比 离散 度 (contrastive divergence) 方法 很 大 程度 上 提高 


依然 限定 
间 没有 连接 )， 而 在 最 远离 可 见 层 的 部 分 使 用 受 限 玻 耳 效 曼 机 ， 即 得 到 深度 置信 
深度 置信 网 络 可 以 看 作 是 一 
头 表示 多 层 特征 提取 的 过 程 (或 


kx 


本 希 奥 等 四 提 


下 层 训 练 好 的 受 限 玻 耳 兹 曼 机 传递 ,虽然 深度 置信 和 网 


展 性 不 强 。 为 了 使 


VECES 


Cautoencoder, AE) PUH Bly i 


层 网 络 


结构 ， 如 


图 3 E) 所 示 。 与 深度 置信 


网 络 的 概率 图 


模型 不 同 ， 自 动 编码 器 通 


常 以 重 构 误 差 作为 优化 的 目标 函 
图 直接 学 习 从 输入 到 输 晶 


数 ， 试 
上 的、 参数 化 


误差 
自动 编码 器 〈 左 ) 和 去 噪 自动 编码 器 〈 右 ) 
的 映射 函数 〈 或 者 特征 提取 函数 )。 去 噪 自动 编码 器 Cdenoising autoencoder, DAE) P? F 
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图 4. 


Hee NL HI 


六 现实 的 


深度 置信 网 络 的 若干 变形 方式 ， 如 卷 


噪声 输入 


重 构 结 果 


深度 学 习 概 述 


动 编码 器 的 一 种 随机 扩展 , 它 的 


棒 的 特征 学 习 。 


标 是 从 有 噪声 的 输入 数据 9 


多 个 自动 编码 器 可 以 组 成 过 加 
想 进 行 训 练 。 为 了 解决 网 络 退化 问题 ， 厂 
Contractive AE (收缩 自动 编 


3.2 大 规模 训练 方法 


如 前 文 所 提 到 的 , 深度 模型 的 训练 过 程 包 折 
始 化 ， 并 将 其 训练 结果 作为 高 一 层 网 络 的 输入 ;(2) 通 i 
中 , 第 一 步 的 初始 化 是 深度 学 习 能 取得 出 色 效 果 的 重要 
随机 梯度 下 降 (stochastic gradient decent, SGD) 方法 ， 
小 部 分 训练 样本 上 进行 。 
顺序 优化 的 思想 增加 了 并 行 化 的 


深度 学 习 的 成 功 大 多 建立 在 “大 数据 + 复杂 模 
器 构建 的 深度 神经 网 络 能 够 从 1000 77 li JG ESTA 


学 家 们 用 1.6 万 个 处 到 
的 面孔 多 。 因 此 ， 为 了 取得 更 高 的 性 能 和 效率 ， 发 据 更 复杂 的 高 层次 特征 ， 我 们 必须 提高 
| 练 大 规模 深度 模型 (超过 1B' BA) 主要 依赖 大 量 的 
CPU 核 以 及 类 似 云 计 算 的 方法 。 以 杰 夫 . 迪 因 (Jeff Dean) 和 吴 恩 达 为 首 的 研究 者 为 了 训练 
HS Mu. Jarek GK. ICA (pooling) 和 局 部 对 比 
以 及 模型 并 行 化 和 异步 随机 梯度 下 降 
基于 现成 商品 高 性 能 计算 


深度 学 习 方法 的 可 扩展 性 。 目 前 Y 


动 编码 器 (stacked autoencoder )， 


E 构 原始 输入 ， 从 而 实现 更 鲁 


并 利用 深度 学 习 的 思 


5 OD 通过 无 监督 学 习 对 每 一 层 网 络 进行 初 
留学 习 微调 整个 网 络 的 参数 。 划 


然 随机 梯度 下 降 与 传统 方法 更 适 月 


究 者 们 通过 引入 先 验 提出 了 稀疏 自动 编码 器 中 |、 
”等 变种 。 


因素 。 深 度 学 习 


的 优化 主要 是 基于 


数 更 新 仅 在 单个 训练 样本 或 者 一 


日 于 大 规模 训练 数据 , 但 是 这 种 


作 ， 成 为 该 方法 在 时 间 效 率 上 面临 


j^ Be 
型 Æ 


的 最 大 瓶颈 。 


IAK (Google) 的 科 
视频 帧 中 学 会 识别 猫 


LA 1B 参数 的 大 规模 深度 模型 ， 采 月 
正则 化 (local contrast normalization) 方法 ， 
(asynchronous SGD) Fis), Heit, BK (Coates) “UHH 


(Commodity Off-The-Shelf High Performance Computing, COTS HPC) 技术 的 深度 学 习 系统 ， 
该 系统 由 无 限 带宽 互联 的 GPU 服务 器 群 组 成 ， 训 练 1B 参数 仅 需 3 台 机 器 ， 而 且 能 够 扩展 


到 更 大 的 网 络 规模 。 


4 ”深度 学 习 的 成 功 应 用 


关于 深度 学 习 ， 最 令 人 瞩目 的 当 属 其 在 计算 机 视觉 、 语 音 识 


计算 机 视觉 


在 计算 机 视觉 领域 , 深度 学 习 最 初 成 功 的 应 
近年 来 ， 深 度 学 习 在 更 广泛 的 计算 机 视觉 和 模式 识别 问题 
噪 和 修复 652、 运动 建 模 5 、 动 作 识 
等 ， 展 现 出 了 有 效 性 。 一 个 案例 是 2012 年 ， 多 伦 多 大 学 辛 顿 教授 等 采 月 
hb 将 错误 率 从 26% 降 低 到 159609), 


语音 识别 


别 等 领域 的 成 功 应 用 。 


在 ImageNet 图 像 识 别 竞赛 


j 是 在 数据 降 允 


EE 手写 数字 识别 等 问题 中 。 


像 识别 Ps09、 图 像 去 
giten, ipeo 59、 视觉 建 模 [9 、 场 景 分 析 四 


日 深度 卷 积 神经 网 络 


2011 年 以 来 ， 微 软 研 究 人 员 通 过 与 辛 顿 合作 ， 首 先 将 受 限 玻 耳 效 曼 机 和 深度 置信 网 络 


引入 到 语音 识别 的 声学 模型 训练 


别 的 错误 率 相对 降 


,在 大 词汇 量 语音 


KSA 30%， 是 语音 识别 领 ] 


IBM, FKEA TA 


于 深度 学 习 的 语音 


1 10? 
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成 十 多 
识别 研究 ， 并且; 


得 巨大 成 功 , 使 得 语音 识 
突破 性 进展 中。 在 国际 上 
E KR. 在 国内 ,百度 、 
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科大 讯 飞 、 中 科 院 自动 化 所 等 公司 或 研究 单位 ， 也 开始 了 深度 学 习 在 语音 识别 上 的 研究 。 


其 他 更 多 领域 


深度 学 习 在 自然 语言 处 理 方面 也 具有 巨大 的 潜力 ", 尽管 


目前 的 研究 还 没有 取得 像 语 音 


识别 那样 的 突破 性 成 果 。 最近, 辛 顿 领导 的 研究 团队 基于 深度 学 
能 成 为 药物 的 分 子 ， 这 项 成 果 由 此 获得 了 默 克 “Merck) 公司 赞助 的 一 项 大 奖 。 事 实 上 ， 涉 
及 到 大 数据 智能 分 析 和 预测 的 领域 都 可 能 找到 深度 学 习 的 用 武之 地 , 这 样 的 领域 包括 (但 不 


局 限于 ) 


: 互联 网 行为 分 析 、 文 本 分 析 、 市 场 监测 、 自 动 控制 〈 


5 总 结 与 展望 


深度 学 习 模 拟人 脑 神经 系统 构建 深层 神经 网 络 模型 ,通过 无 
层级 特征 ， 在 计算 机 视觉 、 语音 识别 等 领域 取得 了 巨大 的 成 功 。 
时 代 迈 进 了 一 步 。 但 是 ,深度 学 习 不 是 一 项 万 能 的 技术 ， 它 能 解决 的 只 是 构 
建 智能 机 器 所 面临 的 巨大 挑战 中 的 一 部 分 。 正 如 纽约 大 学 教授 盖 瑞 . 马 库 斯 (Gary Marcus) "?! 


apo 


真正 的 智能 机 


习 方法 从 大 量 分 子 中 找到 可 


如 无 人 驾驶 汽车 ) 等 等 。 


监督 的 方式 从 大 量 数据 中 学 


所 言 :“ 


辛 顿 已 建立 了 一 个 很 好 的 梯子 ， 但 这 个 梯子 并 不 一 定 能 


于 已 有 的 工作 和 思考 , 我 们 对 于 深度 学 习 尚 未 解决 的 问题 


a 


以 说 ， 深 度 学 习 让 我 们 


带 你 到 月 球 。” 
和 未 来 的 研究 方向 的 看 法 概 


深度 学 习 尚 缺少 统计 学 习 理 论 的 有 力 文 持 ， 模型 的 可 表示 性 、 可 学 习性 以 及 可 并 行 


计算 性 等 基础 理论 问题 有 待 于 深入 研究 。 


即使 是 庞大 复杂 的 深度 神经 网 络 , 距离 模拟 真实 人 脑 还 差 得 非常 远 。 我 们 无 法 完全 


掌握 人 类 大 脑 的 工作 原理 , 但 是 深度 学 习 的 成 功 使 得 丰 


究 者 们 更 加 关注 脑 神经 科学 


的 研究 ， 相 关 的 研究 项 目 如 雨后春笋 般 涌 现 , “大 神经 科学 时 代 ”(Era of Big 


Neuroscience) 已 经 到 来 。 
深度 模型 对 动态 数据 建 模 的 成 效 非常 有 限 , 其 描述 时 间 
待 研究 。 
深度 学 习 在 模型 训练 、 观 测 和 解释 方面 需要 进一步 的 了 


E 


序列 数据 动态 特性 的 能 力 有 


[ 作 ， 例 如 中 间 结 果 的 控制 、 


多 层 同 时 训练 的 方法 、 深 度 生成 式 模 型 更 好 的 采样 方法 、 模 型 的 解释 方法 等 。 
传统 浅 层 学 习 方法 的 深度 扩展 是 个 值得 关注 的 问题 。 在 大 数据 时 代 , 深度 学 习 可 能 


并非 唯一 的 选择 ,一 些 传统 的 机 器 学 习 方法 如 何 借鉴 深 
能 分 析 问 题 ， 也 值得 研究 。 
深度 模型 在 特征 共享 的 层面 实现 了 多 任务 学 习 的 机 制 ， 


度 学 习 的 思想 解决 大 数据 智 


即 多 个 任务 之 间 共 享 或 部 分 


共享 较 低层 的 特征 表示 , 而 不 同 的 任务 对 应 的 高 层 特征 表示 各 不 相同 。 我 们 期 望 未 


来 有 更 高 效 的 多 任务 深度 学 习 方法 和 成 功 的 应 用 出 现 。 
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